多代理游戏中的均衡选择是指选择帕累托最佳平衡的问题。已经表明,由于每个代理商在训练过程中对其他代理商的政策的不确定性,许多最先进的多机构增强学习(MARL)算法容易融合到帕累托主导的平衡。为了解决次优的平衡选择,我们提出了一种使用无关紧要游戏的简单原则(具有相同奖励的超级合作游戏)的参与者批评算法(PAC):每个代理人都可以假设其他人会选择动作的动作这将导致帕累托最佳平衡。我们评估了PAC在一系列多种多样的游戏中,并表明与替代MARL算法相比,它会收敛到更高的情节回报,并在一系列矩阵游戏中成功收敛到帕累托优势。最后,我们提出了一个图形神经网络扩展,该扩展可以在具有多达15个代理商的游戏中有效地扩展。
translated by 谷歌翻译
可以与其他代理人互动以完成给定任务的自主代理的发展是人工智能和机器学习研究的核心领域。为了实现这一目标,自主代理研究小组开发了用于自主系统控制的新型机器学习算法,特别关注深度强化学习和多代理强化学习。研究问题包括可扩展的协调代理政策和代理间沟通;从有限观察的情况下对其他代理的行为,目标和组成的推理;以及基于内在动机,课程学习,因果推断和代表性学习的样品学习。本文概述了该小组正在进行的研究组合,并讨论了未来方向的开放问题。
translated by 谷歌翻译
成功部署多机构强化学习通常需要代理来适应其行为。在这项工作中,我们讨论了团队合作适应的问题,其中一组代理团队需要调整其政策以通过有限的微调解决新的任务。由代理人需要能够识别和区分任务以使其行为适应当前任务的直觉的动机,我们建议学习多代理任务嵌入(MATE)。这些任务嵌入方式是使用针对重建过渡和奖励功能进行优化的编码器架构训练的,这些功能唯一地识别任务。我们表明,在提供任务嵌入时,一组代理商可以适应新颖的任务。我们提出了三个伴侣训练范例:独立伴侣,集中式伴侣和混合伴侣,这些伴侣在任务编码的信息中有所不同。我们表明,伴侣学到的嵌入识别任务,并提供有用的信息,哪些代理在适应新任务期间利用了哪些代理。
translated by 谷歌翻译
建模其他代理的行为对于了解代理商互动和提出有效决策至关重要。代理模型的现有方法通常假设在执行期间对所建模代理的本地观测和所选操作的知识。为了消除这种假设,我们使用编码器解码器体系结构从受控代理的本地信息中提取表示。在培训期间使用所建模代理的观测和动作,我们的模型学会仅在受控剂的局部观察中提取有关所建模代理的表示。这些陈述用于增加受控代理的决定政策,这些政策通过深度加强学习培训;因此,在执行期间,策略不需要访问其他代理商的信息。我们提供合作,竞争和混合多种子体环境中的全面评估和消融研究,表明我们的方法比不使用所学习表示的基线方法实现更高的回报。
translated by 谷歌翻译
多代理深度增强学习(Marl)缺乏缺乏共同使用的评估任务和标准,使方法之间的比较困难。在这项工作中,我们提供了一个系统评估,并比较了三种不同类别的Marl算法(独立学习,集中式多代理政策梯度,价值分解)在各种协作多智能经纪人学习任务中。我们的实验是在不同学习任务中作为算法的预期性能的参考,我们为不同学习方法的有效性提供了见解。我们开源EPYMARL,它将Pymarl CodeBase扩展到包括其他算法,并允许灵活地配置算法实现细节,例如参数共享。最后,我们开源两种环境,用于多智能经纪研究,重点关注稀疏奖励下的协调。
translated by 谷歌翻译
图像中的对象状态的检测(状态检测 - SD)是理论和实际重要性的问题,并且它与其他重要的计算机视觉问题紧密地交织,例如动作识别和承受性检测。它对任何需要有理由和在动态域名的实体的实体也非常相关,例如机器人系统和智能代理人。尽管重要的是,到目前为止,这一问题的研究已经有限。在本文中,我们尝试了对SD问题的系统研究。首先,我们介绍了对象状态检测数据集(OSDD),这是一个由19,000个注释为18个对象类别和9个州类的注释组成的新公共可用数据集。其次,使用用于对象检测(OD)的标准深度学习框架,我们进行多项适当设计的实验,深入研究SD问题的行为。本研究能够在各种场景中实现SD的性能的基准,以及与OD相比的相对性能。总的来说,实验结果证实,SD比OD更难,需要制定定制的SD方法来有效地解决这一重大问题。
translated by 谷歌翻译